基于得分的生成模型(SGM)通过运行时间转移的随机微分方程(SDE)从高斯白噪声中合成新数据样本,其漂移系数取决于某些概率分数。此类SDE的离散化通常需要大量的时间步骤,因此需要高计算成本。这是因为我们通过数学分析的分数的不良条件特性。我们表明,通过将数据分布分配到跨尺度的小波系数的条件概率的产物中,可以将SGMS大大加速。最终的小波得分生成模型(WSGM)在所有尺度上都以相同的时间步长合成小波系数,因此其时间复杂性随着图像大小而线性增长。这在数学上是在高斯分布上证明的,并在相变和自然图像数据集中的物理过程上以数值显示。
translated by 谷歌翻译
Recent work has shown the benefits of synthetic data for use in computer vision, with applications ranging from autonomous driving to face landmark detection and reconstruction. There are a number of benefits of using synthetic data from privacy preservation and bias elimination to quality and feasibility of annotation. Generating human-centered synthetic data is a particular challenge in terms of realism and domain-gap, though recent work has shown that effective machine learning models can be trained using synthetic face data alone. We show that this can be extended to include the full body by building on the pipeline of Wood et al. to generate synthetic images of humans in their entirety, with ground-truth annotations for computer vision applications. In this report we describe how we construct a parametric model of the face and body, including articulated hands; our rendering pipeline to generate realistic images of humans based on this body model; an approach for training DNNs to regress a dense set of landmarks covering the entire body; and a method for fitting our body model to dense landmarks predicted from multiple views.
translated by 谷歌翻译
视频录制是一种广泛使用的方法,用于记录研究和临床实践中的婴儿和儿童行为。由于机密性的道德问题,尽管需要共享的大规模数据集的需求仍在增加,因此很少共享视频数据。当涉及基于数据驱动的计算机的方法,例如筛选工具以补充临床评估时,这种需求更加必要。要在遵守隐私保护规则的同时共享数据,是否会出现一个关键问题,这是否会减少数据实用程序?我们通过展示PrechTL的一般运动评估(GMA)来解决这个问题,该评估是一种既定的,全球实践的基于视频的诊断工具,用于早期婴儿,用于检测神经系统缺陷,例如脑瘫。迄今为止,尚无针对婴儿运动分析的共享专家注销的大数据存储库。这样的数据集将大大受益于人类评估者的培训和重新校准以及基于计算机的方法的发展。在当前的研究中,来自前瞻性纵向婴儿队列的序列,总共有19451年可用的通用运动视频片段被随机选择用于人类的临床推理和基于计算机的分析。我们首次证明,通过脸部视频录制的伪造是一种可行的方法。视频修复不影响人类评估者或计算机视觉方法的分类精度,这表明有足够且易于应用的解决方案用于共享运动视频数据。我们呼吁进一步探索有效和隐私规则的方法,以在运动评估以外的科学和临床领域去识别视频数据。这些方法应使共享并将独立视频数据集合并到大型数据库中,以提高科学和公共卫生。
translated by 谷歌翻译
尽管具有优势,但正常化的流量通常会遇到几个缺点,包括它们产生不现实数据(例如图像)的趋势及其未能检测到分布数据的数据。这些缺陷的原因之一在于培训策略传统上仅利用最大似然原则。本文提出了一个新的训练范式,该训练范式基于结合最大似然原理(MLE)和切成薄片的距离的混合目标函数。在合成玩具示例和真实图像数据集上获得的结果在生成样品的可能性和视觉方面都显示出更好的生成能力。相度地,提出的方法导致分布数据的可能性较低,表明所得流的数据保真度更高。
translated by 谷歌翻译
最佳运输(OT)提供了比较和映射概率度量的有效工具。我们建议利用神经网络的灵活性学习近似的最佳传输图。更确切地说,我们提出了一种新的原始方法,以解决将有限的样本集与第一个基础未知分布相关的有限样本,向另一个未知分布中绘制的有限样本集有关。我们表明,可逆神经网络的特定实例,即归一化流,可用于近似一对经验分布之间的该OT问题的解决方案。为此,我们建议通过通过最小化相应的瓦斯坦距离来替换推送前措施的相等性约束来放松OT的蒙加公式。然后将要检索的推向运算符被限制为正常化的流,该流程通过优化所得的成本函数来训练。这种方法允许将传输图离散作为函数的组成。这些功能中的每一个都与网络的一个子流有关,其输出提供了原始测量和目标度量之间传输的中间步骤。这种离散化也产生了两种感兴趣量度之间的一组中间重点。在玩具示例上进行的实验以及无监督翻译的具有挑战性的任务证明了该方法的兴趣。最后,一些实验表明,提出的方法导致了真实OT的良好近似值。
translated by 谷歌翻译
社会和自然中的极端事件,例如大流行尖峰,流氓波浪或结构性失败,可能会带来灾难性的后果。极端的表征很困难,因为它们很少出现,这似乎是由良性的条件引起的,并且属于复杂且通常是未知的无限维系统。这种挑战使他们将其描述为“毫无意义”。我们通过将贝叶斯实验设计(BED)中的新型训练方案与深神经操作员(DNOS)合奏结合在一起来解决这些困难。这个模型不足的框架配对了一个床方案,该床方案积极选择数据以用近似于无限二二维非线性运算符的DNO集合来量化极端事件。我们发现,这个框架不仅清楚地击败了高斯流程(GPS),而且只有两个成员的浅色合奏表现最好; 2)无论初始数据的状态如何(即有或没有极端),都会发现极端; 3)我们的方法消除了“双研究”现象; 4)与逐步全球Optima相比,使用次优的采集点的使用不会阻碍床的性能; 5)蒙特卡洛的获取优于高量级的标准优化器。这些结论共同构成了AI辅助实验基础设施的基础,该基础设施可以有效地推断并查明从物理到社会系统的许多领域的关键情况。
translated by 谷歌翻译
In this paper we present two datasets for Tamasheq, a developing language mainly spoken in Mali and Niger. These two datasets were made available for the IWSLT 2022 low-resource speech translation track, and they consist of collections of radio recordings from the Studio Kalangou (Niger) and Studio Tamani (Mali) daily broadcast news. We share (i) a massive amount of unlabeled audio data (671 hours) in five languages: French from Niger, Fulfulde, Hausa, Tamasheq and Zarma, and (ii) a smaller parallel corpus of audio recordings (17 hours) in Tamasheq, with utterance-level translations in the French language. All this data is shared under the Creative Commons BY-NC-ND 3.0 license. We hope these resources will inspire the speech community to develop and benchmark models using the Tamasheq language.
translated by 谷歌翻译
扩散模型对图像的生成建模表现出令人印象深刻的性能。在本文中,我们提出了一种基于扩散模型的新型语义分段方法。通过修改培训和采样方案,我们表明扩散模型可以执行医学图像的病变分割。为了生成图像特定的分割,我们在地面真实分割上培训模型,并在采样过程中使用图像作为先前的图像。通过给定的随机抽样过程,我们可以生成分割面罩的分布。此属性允许我们计算分割的像素方面的不确定性地图,并允许增加分段性能的分段内隐式集合。我们评估我们在Brats2020数据集上进行脑肿瘤细分的方法。与最先进的分割模型相比,我们的方法产生了良好的细分结果,另外,有意义地,有意义的不确定性地图。
translated by 谷歌翻译
语义场景完成(SSC)是一个具有挑战性的计算机视觉任务,具有许多实际应用,从机器人到辅助计算。其目标是在场景的视野中推断3D几何图形和体素的语义标记,包括遮挡区域。在这项工作中,我们呈现出来,一种新型轻质多模式3D深CNN,其与来自BiMoDal 2D分段网络的语义前沿的RGB-D图像的深度分量无缝地熔化结构数据。这一领域的一个至关重要的困难是缺乏完全标记的现实世界3D数据集,足以训练当前的数据饥饿的深3d CNN。在2D计算机愿景任务中,已提出许多数据增强策略来改善CNN的泛化能力。但是,这些方法不能直接应用于RGB-D输入和SSC解决方案的输出量。在本文中,我们介绍了可以应用于多模式SSC网络的3D数据增强策略的使用。我们通过全面和可重复的消融研究验证我们的贡献。我们的解决方案始终如一地超越了以前的作品,具有类似的复杂程度。
translated by 谷歌翻译
大型图像数据集的有限可用性是在医学中开发准确宽大的机器学习方法的主要问题。数据量的限制主要是由于使用不同的采集协议,不同的硬件和数据隐私。同时,培训小型数据集的分类模型会导致模型的较差质量差。为了克服这个问题,通常使用不同出处的各种图像数据集的组合,例如,多站点研究。然而,如果附加数据集不包括任务的所有类别,则可以将分类模型的学习偏置到设备或获取地点。磁共振(MR)图像特别是磁共振(MR)图像的情况,其中不同的MR扫描仪引入限制模型性能的偏差。在本文中,我们提出了一种新颖的方法,该方法学习忽略图像中存在的扫描仪相关的特征,同时学习与分类任务相关的功能。我们专注于真实世界的情景,只有一个小型数据集提供所有类的图像。我们通过对潜伏空间引入特定的额外限制来利用这种情况,这引起了对疾病相关而非扫描仪的特征的关注。我们的方法学会在多站点MRI数据集上忽略优于艺术域的最新域适应方法,在多发性硬化患者和健康受试者之间的分类任务上。
translated by 谷歌翻译